3 research outputs found
Assessing and improving recommender systems to deal with user cold-start problem
Recommender systems are in our everyday life. The recommendation methods have as
main purpose to predict preferences for new items based on userŠs past preferences. The
research related to this topic seeks among other things to discuss user cold-start problem,
which is the challenge of recommending to users with few or no preferences records.
One way to address cold-start issues is to infer the missing data relying on side information.
Side information of different types has been explored in researches. Some
studies use social information combined with usersŠ preferences, others user click behavior,
location-based information, userŠs visual perception, contextual information, etc. The
typical approach is to use side information to build one prediction model for each cold
user. Due to the inherent complexity of this prediction process, for full cold-start user in
particular, the performance of most recommender systems falls a great deal. We, rather,
propose that cold users are best served by models already built in system.
In this thesis we propose 4 approaches to deal with user cold-start problem using
existing models available for analysis in the recommender systems. We cover the follow
aspects:
o Embedding social information into traditional recommender systems: We investigate
the role of several social metrics on pairwise preference recommendations and
provide the Ąrst steps towards a general framework to incorporate social information
in traditional approaches.
o Improving recommendation with visual perception similarities: We extract networks
connecting users with similar visual perception and use them to come up with
prediction models that maximize the information gained from cold users.
o Analyzing the beneĄts of general framework to incorporate networked information
into recommender systems: Representing different types of side information as a
user network, we investigated how to incorporate networked information into recommender
systems to understand the beneĄts of it in the context of cold user
recommendation.
o Analyzing the impact of prediction model selection for cold users: The last proposal
consider that without side information the system will recommend to cold users
based on the switch of models already built in system.
We evaluated the proposed approaches in terms of prediction quality and ranking
quality in real-world datasets under different recommendation domains. The experiments
showed that our approaches achieve better results than the comparison methods.Tese (Doutorado)Sistemas de recomendação fazem parte do nosso dia-a-dia. Os métodos usados nesses
sistemas tem como objetivo principal predizer as preferências por novos itens baseado no
perĄl do usuário. As pesquisas relacionadas a esse tópico procuram entre outras coisas
tratar o problema do cold-start do usuário, que é o desaĄo de recomendar itens para
usuários que possuem poucos ou nenhum registro de preferências no sistema.
Uma forma de tratar o cold-start do usuário é buscar inferir as preferências dos usuários
a partir de informações adicionais. Dessa forma, informações adicionais de diferentes tipos
podem ser exploradas nas pesquisas. Alguns estudos usam informação social combinada
com preferências dos usuários, outros se baseiam nos clicks ao navegar por sites Web,
informação de localização geográĄca, percepção visual, informação de contexto, etc. A
abordagem típica desses sistemas é usar informação adicional para construir um modelo
de predição para cada usuário. Além desse processo ser mais complexo, para usuários
full cold-start (sem preferências identiĄcadas pelo sistema) em particular, a maioria dos
sistemas de recomendação apresentam um baixo desempenho. O trabalho aqui apresentado,
por outro lado, propõe que novos usuários receberão recomendações mais acuradas
de modelos de predição que já existem no sistema.
Nesta tese foram propostas 4 abordagens para lidar com o problema de cold-start
do usuário usando modelos existentes nos sistemas de recomendação. As abordagens
apresentadas trataram os seguintes aspectos:
o Inclusão de informação social em sistemas de recomendação tradicional: foram investigados
os papéis de várias métricas sociais em um sistema de recomendação de
preferências pairwise fornecendo subsidíos para a deĄnição de um framework geral
para incluir informação social em abordagens tradicionais.
o Uso de similaridade por percepção visual: usando a similaridade por percepção
visual foram inferidas redes, conectando usuários similares, para serem usadas na
seleção de modelos de predição para novos usuários.
o Análise dos benefícios de um framework geral para incluir informação de redes
de usuários em sistemas de recomendação: representando diferentes tipos de informação
adicional como uma rede de usuários, foi investigado como as redes de
usuários podem ser incluídas nos sistemas de recomendação de maneira a beneĄciar
a recomendação para usuários cold-start.
o Análise do impacto da seleção de modelos de predição para usuários cold-start:
a última abordagem proposta considerou que sem a informação adicional o sistema
poderia recomendar para novos usuários fazendo a troca entre os modelos já
existentes no sistema e procurando aprender qual seria o mais adequado para a
recomendação.
As abordagens propostas foram avaliadas em termos da qualidade da predição e da
qualidade do ranking em banco de dados reais e de diferentes domínios. Os resultados
obtidos demonstraram que as abordagens propostas atingiram melhores resultados que os
métodos do estado da arte
A Multi-Armed Bandit Model Selection for Cold-Start User Recommendation
International audienceHow can we effectively recommend items to a user about whom we have no information? This is the problem we focus on, known as the cold-start problem. In this paper, we focus on the cold user problem.In most existing works, the cold-start problem is handled through the use of many kinds of information available about the user. However, what happens if we do not have any information?Recommender systems usually keep a substantial amount of prediction models that are available for analysis. Moreover, recommendations to new users yield uncertain returns. Assuming a number of alternative prediction models is available to select items to recommend to a cold user, this paper introduces a multi-armed bandit based model selection, named PdMS.In comparison with two baselines, PdMS improves the performance as measured by the nDCG.These improvements are demonstrated on real, public datasets
VISTREE: uma linguagem visual para análise de padrões arborescentes e para especificação de restrições em um ambiente de mineração de árvores
The frequent pattern mining in data represented by more complex structures like trees and
graphs are growing lately. Among the reasons for this improvement is the fact that the tree and
graph patterns has more information than sequential patterns, besides there is the possibility of
usage of this type of mining in several areas like XML Mining,Web Mining and Bioinformatic.
A problem that occurs in mining patterns in general is the great amount of patterns generated.
Being some of them not interesting for users. The decrease in the quantity of patterns generated
can be done restricting the patterns types produced through the user constraint. Even incorporating
constraints in the mining process, the quantity of tree pattern mined is large, what make
necessary one tool for pattern analysis, possibiliting the user specify queries to extract in the
mass of mined patterns that satisfy the criteria of the selection in the query.
The pattern mining with constraint, aim to obtain as a result of the process of mining only
the patterns with the real interest for the user. The constraint about patterns will be represented
related to the structure of them. One form to represent the sequential pattern mining would be
through regular expressions, for the tree pattern mining, the tree automata. The use of constraints
solve the problem to generate a large amout of patterns, but the mechanism used to
represent the constraint is still constituted in another problem that would be the difficult for a
user do the input of constraint using this mechanism.
The queries about frequent patterns are made according to the characteristics of the data.
One way to extract specific patterns in data structured like trees is to store the specific patterns
in a XML file and make queries using one of the query languages for XML files. Among the
XML query languages, the XQuery language is very used, mainly by the fact that it s similar
in semantic to SQL, the query language for databases. The frequently patterns queries could be
made using this language, but, for this the user would have to know and be capable to express
queries through it.
In this research it will be presented the visual language VisTree that consists of visual
tool to be used in a phase of preprocess for specification the user preferences that involves the format of the tree pattern that are interested to him, as in a phase of postprocess to analyze
the mined patterns. The VisTree sintaxe is based on in a fragment of the Tree Pattern
language[Chen et al. 2003, Che and Liu 2005], the core of XPath 1.0 [Clark and Derose 1999,
Olteanu et al. 2002]. However, the semantic of VisTree differs from the semantic of these languages
in the sense that VisTree queries return the sets of tree patterns. VisTree uses a XQuery
language [Chamberlin 2003, Katz et al. 2003] like query process mechanism: the visual queries
specified in VisTree are mapped in XQuery queries and theirs responses are adapted to fit the
format returned by VisTree. VisTree works like a XQuery front-end.
A complete system of mining tree pattern was developed to test and validate the use of
VisTree language in specific contexts of applications. The system was made in a modular form,
in a way to allow that new applications could be incorporated in a simple way. This research
show the application of tree mining with constraint in the areas of XML Mining andWeb Mining
through study case. In both applications, the system use the VisTree language in the preprocess
modules (constraint input) and analysis of patterns (query input).Mestre em Ciência da ComputaçãoA mineração de padrões freqüentes em dados representados por estruturas mais complexas
como árvores e grafos vêm crescendo muito nos últimos tempos. Entre as razões para esse
crescimento está o fato do padrão arborescente ou em forma de grafo possuir mais informações
do que os padrões seqüenciais, e na possibilidade de aplicação desse tipo de mineração em
várias áreas como XML Mining, Web Mining e Bioinformática. Um problema que ocorre na
mineração de padrões em geral é a grande quantidade de padrões gerados; sendo que muitos
deles nem são do interesse do usuário. A diminuição da quantidade de padrões gerados pode
ser feita restringido o tipo de padrão produzido através de especificações do usuário. Mesmo
incorporando restrições no processo de mineração, a quantidade de padrões arborescentes minerados
é grande, o que torna necessário uma ferramenta de análise dos padrões, possibilitando
ao usuário especificar consultas para extrair da massa de padrões minerados aqueles que satisfazem
os critérios de seleção da consulta.
A mineração de padrões com restrição, visa obter como resultado de um processo de mineração
apenas os padrões de real interesse do usuário. Uma restrição sobre padrões será representada
de acordo com a estrutura dos mesmos. Para a mineração de padrões seqüencias uma
forma de representá-la seria através de expressões regulares, para a mineração de padrões arborescentes,
os autômatos de árvore. O uso de restrições resolve o problema da geração de uma
grande quantidade de padrões, mas o mecanismo usado para representar a restrição ainda se
constitui em um outro problema que seria a dificuldade de um usuário em fazer a entrada da
restrição utilizando esse mecanismo.
As consultas sobre padrões freqüentes são feitas de acordo com as características dos dados.
Uma forma de extrair padrões específicos em dados estruturados como árvores é armazenar os
padrões freqüentes em um documento XML e efetuar uma consulta usando uma das linguagens
de consulta a documentos XML. Dentre as linguagens de consulta XML, a linguagem XQuery é
muito utilizada, principalmente pelo fato de ser similar semanticamente a SQL (linguaguem de
consulta a banco de dados). A consulta aos padrões freqüentes poderia então ser feita utilizando essa linguagem, mas para isso o usuário teria que conhecer e ser capaz de expressar sua consulta
através dela.
Nesse trabalho é apresentada a linguagem visual VisTree, que consiste em uma ferramenta
visual a ser utilizada tanto numa fase de Pré-processamento para a especificação das preferências
do usuário no que se refere ao formato dos padrões arborescentes que lhe interessa, quanto
numa fase de pós-processamento para a análise dos padrões minerados. A sintaxe da VisTree se
baseia na sintaxe de um fragmento simples da linguagem Tree Pattern [Miklau and Suciu 2004,
Chen et al. 2003], na qual a linguagem XPath 1.0 [Clark and Derose 1999, Olteanu et al. 2002]
também se baseou. Entretanto, a semântica de VisTree difere da semântica destas linguagens no
sentido de que consultas de VisTree retornam conjuntos de padrões arborescentes. A VisTree
utiliza a linguagem XQuery [Chamberlin 2003, Katz et al. 2003] como mecanismo de processamento
de consultas: as consultas visuais especificadas em VisTree são mapeadas em consultas
da XQuery e suas respostas adaptadas para se adequarem ao formato retornado por VisTree.
Um sistema completo de mineração de padrões arborescentes foi desenvolvido para testar
e validar o uso da linguagem VisTree em contextos específicos de aplicações. O sistema foi
construído de forma modular para que novas aplicações possam ser incorporadas de maneira
simples. A aplicação de mineração de árvores com restrição nas áreas de XML Mining e Web
Mining foi feita através de um estudo de caso. Nas duas aplicações, o sistema utiliza a linguagem
VisTree nos módulos que fazem a tarefa de Pré-Processamento (entrada da restrição) e
de Análise de Padrões (entrada da consulta)